连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?
连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。
论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。
谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
Claude于今日凌晨推出新的功能,将ReSearch和 Google Workspace 集成、以及把电子邮件、日历和文档与 Claude 相关联,claude可以在工作环境和联网环境下借助Research快速作出决策和行动。
两个月后就号称要淘汰GPT-4.5的GPT-4.1,实力究竟如何?在众多实测中,它的表现的确可圈可点,但却依然打不过Gemini 2.5 Pro和Claude 3.7 Sonnet。那么问题来了,OpenAI为何要发布一个远远落后于谷歌的模型?
刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。
Anthropic联合创始人兼首席科学家Jared Kaplan抛出重磅预测:人类水平的AI(AGI)可能在2-3年内实现,而非此前预计的2030年。从AI能力的飞速扩展到Claude 4的即将发布,再到DeepSeek等全球竞争者的崛起,Kaplan为我们揭示了AI领域的最新突破与挑战。
OpenAI 竞争对手Anthropic ,计划为其 Claude 聊天机器人推出价格更高的订阅选项。2025 年 3 月,Anthropic 以 615 亿美元的估值完成了 35 亿美元的融资交易,巩固了其作为全球最大初创企业之一的地位。
一直很喜欢一个公众号,叫“十行诗”。里面有个《情色诗》专场,早在几个月前探索Claude创作边界的时候,我就尝试着让Claude也写出这种:用词简练,不啰嗦;意境含蓄,不直白;情感真挚,不做作的现代诗。
4 月 3 日消息,当地时间周三,Anthropic 发布了“Claude for Education”计划,宣布正式进军高等教育市场,以应对 OpenAI 的 ChatGPT Edu 方案。该计划将为高校师生和工作人员提供 Claude AI 聊天机器人,并额外配备一系列专门功能。
自己「打脸」自己?